簡介:本課中將系統(tǒng)的講解Spark SQL的核心知識,并以實戰(zhàn)的方式,通過分析Nginx訪問日志的實戰(zhàn)例子,幫助同學們領略SparkSQL強大簡便的數據分析能力,洞悉SparkSQL調優(yōu)方式及其核心思想。
第2章 認識Spark SQL
本章介紹Spark SQL運行原理,DataFrame、DataSet和RDD的相互轉化和使用場景,并講解Parquet的使用。
第3章 DataFrame/DataSet常用操作
本章介紹DataFrame的過濾,分組,排序操作和列值的增刪改,以及對Join的優(yōu)化。
第4章 自定義函數和開窗函數
本章講解自定義函數的使用,以及開窗函數在分組求TopN中的應用。
第5章 Nginx訪問日志分析完整實戰(zhàn)
本章會講解使用Spark SQL分析Nginx訪問日志的項目。包括了數據清洗,存儲,監(jiān)控和優(yōu)化。
解鎖即可觀看《大數據工程師》完整課程視頻
大數據工程師
硬核技能帶你攻克熱點商業(yè)項目,從入門直達中級工程師水平,掌握DT時代淘金利器!
【第1周】學好大數據先攻克Linux
【第2周】大數據起源之初識Hadoop
【第3周】Hadoop之HDFS的使用
【第4周】Hadoop之HDFS核心進程剖析
【第5周】Hadoop之初識MR
【第6周】拿來就用的企業(yè)級解決方案
【第7周】Flume從0到高手一站式養(yǎng)成記
【第8周】數據倉庫Hive從入門到小牛
【第9周】Hive擴展內容
【第10周】快速上手NoSQL數據庫HBase
【第11周】數據分析引擎之Impala
【第12周】7天極速掌握Scala語言
【第13周】Spark快速上手
【第14周】Spark性能優(yōu)化的道與術
【第15周】Spark3.x擴展內容
【第16周】綜合項目:電商數據倉庫之用戶行為數倉
【第17周】綜合項目:電商數據倉庫之商品訂單數倉
【第18周】消息隊列之Kafka從入門到小牛
【第19周】極速上手內存數據庫Redis
【第20周】Flink快速上手篇
【第21周】Flink高級進階之路
【第22周】Flink1.15新特性及狀態(tài)的使用
【第23周】Flink1.15之狀態(tài)的容錯與一致性
【第24周】FlinkSQL(1.15)快速上手
【第25周】FlinkSQL雙流JOIN詳解
【第26周】全文檢索引擎Elasticsearch
【第27周】Es+HBase仿百度搜索引擎項目
【第28周】直播平臺三度關系推薦V1.0
【第29周】直播平臺三度關系推薦V2.0
【第30周】數據中臺大屏
【第31周】實時OLAP引擎之ClickHouse
【第32周】實時數倉-Kafka Eagle+DS
【第33周】實時數倉-Flink CDC數據采集
【第34周】實時數倉-Paimon(數據湖)快速上手
【第35周】實時數倉-Paimon(數據湖)高級進階
【第36周】實時數倉-湖倉一體項目
【第37周】一站式流式開發(fā)平臺StreamPark
【第38周】大數據分布式SQL網關Kyuubi